视觉变压器(VIT)在Handing高分辨率图像时的准确性卓越,但它面临着重要的空间冗余的挑战,从而增加了综合和记忆要求。为了解决这个问题,我们提出了本地化和焦点视觉变压器(LF- VIT)。该模型通过战略性地减少综合需求而不影响性能来运行。在本地化阶段,制定了降低的分辨率图像;如果确定的预测仍然难以捉摸,则触发我们的培养邻里全球阶级注意(NGCA)机制,根据初始发现有效识别和点亮阶级歧视区域。随后,在焦点阶段中,该指定的重新从原始图像使用以增强认可。唯一地,LF-VIT在两个阶段都采用一致的参数,以确保无缝的端到端优化。我们的经验测试肯定了LF-Vit的能力:它可以重新降低DEIT-S的拖鞋63%,并同意会增强吞吐量双重。该项目的代码位于https://github.com/edgeai1/lf-vit.git。
主要关键词